【综述专栏】港科+清华+中科院+微软等——视觉-语言智能最新综述

人工智能前沿讲习 2022-12-14

收录于合集 #综述专栏 257个

在科学研究中，从方法论上来讲，都应“先见森林，再见树木”。当前，人工智能学术研究方兴未艾，技术迅猛发展，可谓万木争荣，日新月异。对于AI从业者来说，在广袤的知识森林中，系统梳理脉络，才能更好地把握趋势。为此，我们精选国内外优秀的综述文章，开辟“综述专栏”，敬请关注。

来源：知乎—yearn

地址：https://zhuanlan.zhihu.com/p/476357460

来自香港科技大学，清华大学，中国科学院大学，微软以及IDEA的视觉-自然语言多模态学习综述。这篇综述是目前而言对VL，以及VLP总结的最详细的一篇综述。

文章链接：https://arxiv.org/abs/2203.01922

文章主要由以下几部分组成

Task Specific Problems
Vision Language Joint Representation
Scale up Models and Data
Future Trends

Task Specific Problems

早期VL的方法都是针对特定任务设计的，这一节将这些任务分为四类。对于每个任务，总结了输入、输出、数据集、metric和主流的方法。

Vision Language Joint Representation

在本节中，本文介绍了VLP（VL预训练）模型的主要组成部分。如下图，VLP模型中主要有三个组件，即视觉嵌入(VE)、文本嵌入(TE)和模态融合(MF)模块。VE和TE通常分别用图像和文本进行预训练，而MF则将VE和TE提取的特征，与图像-文本的预训练进行融合。

这一节对这三个模块所使用的技术细节分别进行了展开介绍，并对预训练的必要性进行了的讨论。

Scale up Models and Data

尽管视觉-语言联合表示已经取得了令人鼓舞的进展，但上述大多数研究主要集中在对象级表示上，以追求良好的跨模态对齐。然而，它们有一个很强的假设:图像和文本对都有很好的标签，这就限制了训练数据集只能使用相对较小的有标签数据集。这一节对兴起的，无监督的VLP方法进行了介绍与总结，比如CLIP，DALL-E等。这些方法对标签没有要求，因此可以使用超大的数据集进行训练。

Future Trends

最后一节的篇幅用来讨论VL领域的发展趋势以及可能的研究方向，包括

多个模态的数据相互促进进行学习。
一个统一的框架，可以处理任意模态的数据。
VL+knowledge。将常识性的内容融入所学习的模型。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“综述专栏”历史文章

请点击文章底部“阅读原文”查看

分享、点赞、在看，给个三连击呗！

中美友好合作故事——十万名中国弃婴长大了

不仅要看已抓谁，还须一直抓到没

因为家暴终身挂着粪袋的她，在等一个死刑！

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

【综述专栏】港科+清华+中科院+微软等——视觉-语言智能最新综述

元宇宙技术综述

中国医学影像人工智能20年回顾和展望

基于深度学习的深度图补全

回顾6年深度学习的算法实践和演进

基于图神经网络的推荐系统

高新波教授：人工智能未来发展趋势分析

基于视觉的机器人抓取—从物体定位、物体姿态估计到平行抓取器抓取估计

基于图神经网络模型的特征交互建模

基于深度学习的计算机视觉研究新进展

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

十年回顾——CV的未来：ConvNeXt or Transformer?

简述 Human Pose with Deep-learning

图像异常检测研究现状综述

NER的简单综述

深入理解LightGBM

更多综述专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

不仅要看已抓谁，还须一直抓到没

因为家暴终身挂着粪袋的她，在等一个死刑！

【资源分享】【收集不易多多分享】【2024年12月29日】宝山区区面试流程和结构化真题20道其中5题幼儿（独家请老师给参考答案）

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

生成图片，分享到微信朋友圈

【综述专栏】港科+清华+中科院+微软等——视觉-语言智能最新综述

更多综述专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣